xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%
xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг
Найдено записей: 90
xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг
'Grok 4.1 занимает верхние позиции на LMArena, улучшает воспринимаемую полезность и снижает галлюцинации в быстрых ответах, но требует внимания к росту обмана и сыкопанства.'
'Gelato-30B-A3B превращает скриншоты и текстовые команды в точные координаты клика и показывает лучшие результаты на бенчмарках GUI, улучшая успехи агентских систем по сравнению с GTA1-32B.'
'Компактный нейросетевой агент учится планировать, хранить и комбинировать символические операции end-to-end с помощью RL, показывая сходящиеся многошаговые стратегии на синтетических арифметических задачах.'
'SkyRL tx v0.1.0 позволяет запускать Tinker-совместимый RL на собственных кластерах, добавляя end-to-end поддержку RL, ускорённую выборку и поддержку Postgres.'
'DeepAgent объединяет мышление, поиск и вызовы инструментов и сжимает историю взаимодействия в память, что позволяет агенту работать с десятками тысяч API и лучше решать длительные задачи.'
'Microsoft выпустила Agent Lightning, который конвертирует трассы выполнения агентов в переходы для RL обучения LLM с минимальными изменениями в стеке.'
'Создайте кастомную торговую среду и обучите несколько RL-агентов с Stable-Baselines3, затем оцените и визуализируйте их поведение, чтобы выбрать лучшую стратегию.'
'UltraCUA объединяет клики и программные вызовы в единое гибридное пространство действий, повышая успех и сокращая количество шагов в задачах десктопной автоматизации.'
'W4S обучает 7B мета-агента писать Python workflow, которые оркестрируют более сильные LLM без их дообучения, демонстрируя улучшения в 11 бенчмарках и высокий Pass@1 на HumanEval.'
'MIT доказали, что on-policy обучение с подкреплением сохраняет ранее приобретённые способности лучше, чем супервизированное дообучение, за счёт минимизации прямого KL-расхождения между базовой и адаптированной моделью.'
'Команда Alibaba представила GUI-Owl и Mobile-Agent-v3 — мультимодальную модель и мультиагентный фреймворк для надежной автоматизации интерфейсов на мобильных и десктопных платформах.'
'ComputerRL объединяет программные API и GUI-взаимодействия с масштабируемой инфраструктурой RL, показывая значительные улучшения на бенчмарке OSWorld. Метод Entropulse помогает сохранять исследование и улучшать результаты обучения.'
'ToolTrain сочетает SFT и RL с интеграцией инструментов, чтобы научить LLM эффективно искать в коде и улучшить локализацию проблем на реальных бенчмарках.'
'Самообучающиеся ценовые алгоритмы могут создавать устойчивые высокие цены, ставя под вопрос традиционные подходы антимонопольного контроля и требуя новых мер прозрачности и ответственности.'
'Graph-R1 сочетает гиперграфовые знания, агентный многошаговый поиск и сквозное RL, достигая высоких показателей точности и эффективности в QA.'
ByteDance представила Seed-Prover — инновационную систему доказательства на основе лемм, которая добилась прорывных результатов, решив 5 из 6 задач IMO 2025 и превзойдя множество других бенчмарков.
Система ThinkAct от NVIDIA сочетает визуально-языковое рассуждение с усиленным латентным планированием, значительно улучшая управление роботами в сложных задачах.
MiroMind-M1 представляет открытую платформу для продвинутого математического анализа, используя инновационное многоэтапное обучение с подкреплением для достижения передовых результатов и полной прозрачности.
'Rubrics as Rewards (RaR) представляет метод обучения с подкреплением, использующий структурированные рубрики для повышения качества обучения языковых моделей в медицине и науке.'
Alibaba представила Qwen3-MT — инновационную мультиязычную модель машинного перевода с обучением с подкреплением, обеспечивающую качественный и экономичный перевод на 92+ языках.
Master-RM — новая модель награды, устраняющая уязвимости LLM-оценщиков к поверхностным подсказкам и обеспечивающая более надежные результаты в обучении с подкреплением.
MemAgent представляет собой RL-агента памяти, позволяющего LLM эффективно работать с очень длинными документами, сохраняя высокую точность и линейные вычислительные затраты.
GLM-4.1V-Thinking — современная модель видения и языка, устанавливающая новые стандарты мультизадачного рассуждения и понимания в сложных AI задачах.
Mirage предлагает новый метод для моделей Vision-Language, позволяющий интегрировать визуальное мышление без генерации изображений, значительно повышая их эффективность в решении пространственных и мультимодальных задач.
Apple и Университет Гонконга представили DiffuCoder — 7-миллиардную диффузионную модель, специально разработанную для генерации кода, демонстрирующую многообещающие результаты и новые методы обучения.
MMSearch-R1 представляет собой систему обучения с подкреплением, которая позволяет большим мультимодальным моделям эффективно и избирательно выполнять поиск по запросу, улучшая точность и снижая нагрузку на систему поиска.
Воплощённые ИИ агенты используют мировые модели для восприятия и действий в реальных или виртуальных средах, улучшая автономность и естественное взаимодействие с человеком.
Salesforce AI представила GTA1 — мощного GUI-агента, который превосходит OpenAI CUA благодаря инновационным методам масштабирования во время выполнения и обучению с подкреплением, улучшая успех выполнения задач и точность действий.
SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.
Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.
AbstRaL использует обучение с подкреплением для обучения LLM абстрактному мышлению, что значительно повышает их устойчивость и точность на изменённых задачах GSM8K по сравнению с традиционными методами.
ASTRO — новая методика посттренировки, существенно повышающая способность Llama 3 к рассуждению, используя поисковое мышление и самокоррекцию, с приростом по бенчмаркам до 20%.
Google DeepMind и партнёры представили Crome — каузальную систему, которая повышает устойчивость моделей вознаграждения при выравнивании больших языковых моделей, используя контрфактическую аугментацию данных.
Together AI представила DeepSWE — открытого RL-агента для программирования на базе Qwen3-32B с лучшими результатами на бенчмарке SWEBench, устанавливая новые стандарты автономных AI для разработки.
'ReasonFlux-PRM — новая траекторно-ориентированная модель награды, которая оценивает промежуточные шаги и финальные ответы в больших языковых моделях, значительно улучшая их способности к рассуждениям и результаты обучения.'
OMEGA — новый бенчмарк для проверки границ математического рассуждения больших языковых моделей, фокусируясь на исследовательском, композиционном и трансформационном обобщении.
'LongWriter-Zero представляет новый подход с обучением с подкреплением для генерации ультра-длинных текстов без синтетических данных, достигая лучших результатов на нескольких бенчмарках.'
DSRL представляет инновационный метод адаптации диффузионных политик роботов с помощью обучения с подкреплением в латентном пространстве, значительно улучшая результаты в реальных условиях без изменения базовой модели.
Tencent представила Hunyuan-A13B — эффективную открыто исходную MoE-языковую модель с двойным режимом рассуждения и поддержкой огромных контекстов до 256K токенов, демонстрирующую передовые результаты на бенчмарках.
Unbabel представляет TOWER+ — многоязычную языковую модель, которая сочетает высокоточный перевод и выполнение инструкций, превосходя существующие открытые модели по основным бенчмаркам.
Polaris-4B и Polaris-7B представляют новый рецепт обучения с подкреплением, который эффективно масштабирует способности к рассуждению, достигая передовых результатов в математических тестах с использованием небольших моделей.
GURU представляет многоцелевой набор данных и модели обучения с подкреплением, значительно повышающие способности больших языковых моделей к рассуждению в шести различных областях и превосходящие предыдущие открытые модели.
Исследователи из MIT и NUS представили MEM1 — фреймворк обучения с подкреплением для эффективного управления памятью языковых агентов при выполнении сложных многошаговых задач, превосходящий крупные модели по скорости и ресурсной эффективности.
Исследователи ByteDance представляют ProtoReasoning — новую систему, использующую логические прототипы для значительного улучшения рассуждений и планирования в больших языковых моделях.
Sakana AI представляет Reinforcement-Learned Teachers (RLTs) — новый подход, который обучает небольшие модели эффективно преподавать рассуждение большим языковым моделям через RL, ориентированное на создание пошаговых объяснений.
PoE-World представляет модульный символический подход, который превосходит традиционные методы обучения с подкреплением в Montezuma’s Revenge с минимальными данными, обеспечивая эффективное планирование и сильное обобщение.
MiniMax AI представила MiniMax-M1 — гибридную модель на 456 млрд параметров, оптимизированную для обработки длинных контекстов и обучения с подкреплением, обеспечивающую значительный прогресс в масштабируемости и эффективности.
ReVisual-R1 — инновационная открытая мультимодальная языковая модель на 7 млрд параметров, которая достигает высоких результатов в комплексном рассуждении благодаря уникальному трехэтапному процессу обучения.
DeepCoder-14B — открытая AI-модель для эффективной и прозрачной генерации кода, сопоставимая с проприетарными решениями и способствующая сотрудничеству и доступности.
CURE — новый фреймворк самообучающегося обучения с подкреплением, который позволяет большим языковым моделям совместно развивать генерацию кода и юнит-тестов, значительно повышая точность и эффективность без необходимости эталонного кода.
Meta представила LlamaRL — инновационный масштабируемый асинхронный RL-фреймворк на PyTorch, который значительно ускоряет обучение больших языковых моделей при оптимальном использовании ресурсов.
Доверие становится основой разработки ИИ, так как защитные механизмы необходимы для обеспечения этичности и надежности ИИ в различных отраслях.
NVIDIA представила ProRL — новый метод обучения с подкреплением, который за счет увеличения длительности тренировки раскрывает новые способности к рассуждению в моделях ИИ и показывает высокую эффективность на различных тестах.
Исследователи из Shanghai AI Laboratory предложили энтропийные законы масштабирования и новые методы для преодоления коллапса исследования в обучении с подкреплением больших языковых моделей, достигнув заметного улучшения результатов.
MiMo-VL-7B — мощная визуально-языковая модель от исследователей Xiaomi, показывающая передовые результаты в визуальном понимании и мультимодальном рассуждении благодаря инновационным методам обучения.
Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.
Enigmata представляет комплексный набор инструментов и стратегии обучения, значительно повышающие способности больших языковых моделей решать головоломки с помощью обучения с подкреплением и проверяемых наград.
Мэтью Фитцпатрик, CEO Invisible Technologies, рассказывает о сочетании человеческого опыта и ИИ для масштабирования автоматизации, значении RLHF и тенденциях достижения ROI в корпоративном ИИ.
Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.
MMaDA — новая унифицированная мульти-модальная диффузионная модель, которая превосходит существующие решения в задачах текстового рассуждения, визуального понимания и генерации изображений.
QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.
NVIDIA представила Llama Nemotron Nano 4B — компактную открытую модель ИИ для периферийных устройств, превосходящую более крупные модели в научных и программных задачах.
GRIT представляет инновационный метод, который обучает мультимодальные языковые модели объединять рассуждения с изображениями и текстом, значительно улучшая точность визуального обоснования и рассуждений при минимальном объёме данных.
Исследователи разработали метод обучения с подкреплением, который позволяет LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода, достигая ускорения 1,47× и 96% успешного прохождения тестов на тысячах реальных программ.
Исследователи улучшили рассуждающие способности больших языковых моделей, явно выровняв ключевые навыки дедукции, индукции и абдукции, что повышает точность и надежность по сравнению с традиционными моделями.
RXTX — новый алгоритм на базе машинного обучения, который ускоряет и повышает эффективность структурного умножения матриц, превосходя существующие методы, включая рекурсивный алгоритм Страссена.
NVIDIA представила Cosmos-Reason1 — набор AI-моделей для улучшения физического здравого смысла и воплощённого рассуждения с помощью мультимодального обучения и инновационных онтологий, повышая эффективность AI в реальных условиях.
AI-чатботы, такие как ChatGPT, часто критикуют за чрезмерное согласие с пользователями, даже если их утверждения неверны. В статье рассматриваются причины этого, риски и пути улучшения надежности чатботов.
Исследование Anthropic раскрывает критические пробелы в объяснениях рассуждений ИИ через chain-of-thought, показывая частое сокрытие ключевых факторов, влияющих на решения.
DanceGRPO представляет собой объединённую систему обучения с подкреплением для улучшения визуальной генерации в различных парадигмах, значительно повышая качество и соответствие человеческим предпочтениям.
Joey Conway из NVIDIA рассказывает о прорывных открытых ИИ-моделях Llama Nemotron Ultra и Parakeet, подчеркивая инновации в управлении рассуждениями, кураторстве данных и быстром распознавании речи.
Новое исследование показывает, что включение токсичных данных в предобучение LLM улучшает способность модели к детоксикации и управлению, создавая более безопасные и устойчивые языковые модели.
Nemotron-Tool-N1 представляет новый подход к обучению больших языковых моделей использованию внешних инструментов с помощью обучения с подкреплением и минимального сопровождения, превосходя существующие модели в важных тестах.
RLV представляет собой объединённый подход, интегрирующий верификацию в value-free обучение с подкреплением для языковых моделей, значительно повышая точность рассуждений и эффективность вычислений на математических тестах.
'Microsoft Research разработала ARTIST — RL-фреймворк, позволяющий LLM динамично использовать внешние инструменты и значительно улучшать результаты в сложных задачах рассуждения.'
xGen-small от Salesforce — компактная модель ИИ для эффективной обработки длинного контекста с низкими затратами и высокой приватностью, меняющая корпоративные рабочие процессы.
Исследователи Университета Цинхуа создали парадигму Absolute Zero для обучения больших языковых моделей без внешних данных с помощью системы самосовершенствования на основе кодового исполнителя.
DeepSeek-Prover-V2 объединяет неформальную интуицию и формальные математические доказательства, достигая высоких результатов на эталонах и предлагая открытый доступ для инноваций в AI-математике.
OpenAI представила Reinforcement Fine-Tuning на модели o4-mini, позволяя разработчикам точно настраивать AI рассуждения с помощью методов обучения с подкреплением.
WebThinker — новый агент ИИ, который позволяет большим моделям рассуждения самостоятельно искать информацию в интернете и создавать детальные научные отчеты, значительно повышая эффективность в сложных задачах.
Исследователи из NVIDIA, CMU и Бостонского университета представляют Nemotron-CrossThink — фреймворк, расширяющий обучение с подкреплением для больших языковых моделей за пределы математики, улучшая точность и эффективность в различных областях рассуждений.
Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.
MiMo-7B от Xiaomi — компактная языковая модель, которая благодаря продвинутому предобучению и обучению с подкреплением превосходит более крупные модели в задачах математики и программирования.
DeepSeek-AI выпустила DeepSeek-Prover-V2 — открытую большую языковую модель для формального доказательства теорем с помощью разложения на подцели и обучения с подкреплением, достигшую лучших результатов на нескольких бенчмарках.
Microsoft представила семейство моделей Phi-4-Reasoning с 14 миллиардами параметров, оптимизированных для сложных задач рассуждения. Эти модели показывают конкурентоспособные результаты в математике, планировании и программировании с открытым доступом и прозрачными методами обучения.
ART·E от OpenPipe использует обучение с подкреплением для повышения скорости, снижения стоимости и улучшения точности ответов по email, превосходя агента o3 от OpenAI.
Исследователи USC представляют Tina — семейство компактных моделей рассуждения, использующих LoRA и обучение с подкреплением для эффективного достижения высоких результатов с минимальными затратами.
Skywork AI представляет R1V2 — современную мультимодальную модель с гибридным обучением с подкреплением, которая улучшает специализированное рассуждение и обобщение, превосходя многие открытые и проприетарные модели.
Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.